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文献 影响 力 评价 新 指标 


摘要 : [目的 /意义 ] 学 术 文 献 影响 力 评价 指标 不 断 推 陈 出 新 ,但 尚 缺 乏 在 研究 主题 层面 对 文献 影响 力 的 评 
Afr ,为 发 现 不 同 研究 主题 内 具有 高 影响 力 和 引用 价值 的 文献 ,本 研究 给 出 一 种 基于 研究 主题 的 文献 影响 力 评价 
方法 。[ 方法/ 过程] 以 Web of Science 数据 库 中 2011 年 -2015 年 间 情 报 学 领域 500 篇 高 被 引文 献 为 样本 ,利用 
LDA 模型 对 样本 文献 进行 主题 建 模 , 将 主题 对 文献 的 支持 度 与 文献 被 引 频次 相 结合 ,计算 特定 主题 文献 的 被 引 
频次 (specific topic cited frequency , 简称 STCF) ,并 根据 每 篇 文献 在 相应 主题 内 的 STCF 值 对 文献 进行 影响 力 排 
序 。[ 结果 /结论 ] ARKA, STCF 值 能 反映 文献 的 主题 内 容 、 细 粒度 体现 文献 的 学 术 地 位 、 呈 现 文献 研究 主题 
的 多 元 性 ,能 够 有 效 弥 补 被 引 频次 \、Altmetrics 指标 的 不 足 。 
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定量 评估 学 术 文献 的 影响 力 是 科研 活动 的 一 个 重 
要 识 节 ,有 助 于 评价 个 人 、 机 构 和 国家 的 科研 产 出 水 
闪 可 发 现 有 价值 的 学 术 文献 ,满足 相关 人 员 的 文献 需 
求 s 对 文献 影响 力 的 研究 ,国内 外 学 者 从 多 个 角度 进 
往 也 探讨 ,最 常用 的 方法 是 考察 文献 的 被 引 频 次 。 
AM I C. C. Kam 等 号 使 用 阔 值 引文 分 析 法 ,选取 营 
销 党 研究 中 被 引 频 次 高 于 18 的 文献 作为 重点 研究 对 
象 $ 确 定 了 影响 力 最 高 的 文献 。 然 而 ,引用 只 是 文献 利 
用 和 看 为 中 的 很 小 一 部 分 请 ,单纯 依靠 被 引 频次 评估 学 
术 文 献 的 影响 力 是 不 全 面 的 。 之 后 ,相继 出 现 了 一 些 
对 文献 影响 力 评估 的 新 方法 , 如 影响 因子 5 Lh 指 
BUS g HEC Le 指数 加 .hg 指数 "1 ,文献 时 序 排名 算 
法 (PTRA) 中 等 ,上 述 指标 均 是 对 被 引 频次 指标 的 改进 
和 完善 。 随 着 网 络 化 .数字 化 技术 的 发 展 ,不 少 学 者 如 
P. Chen ^ , N. Ma ”分 别 在 被 引 频 次 的 基础 上 利用 
PageRank 算法 实现 了 基于 文献 引用 网 络 的 文献 排名 ; 
M. Krapivin 4$" 探讨 了 被 引 频次 h 指数 和 PageRank 
3 种 评价 方法 在 科学 引文 网 络 中 的 意义 和 影响 ,结果 
表明 ,利用 不 同方 法 对 文献 进行 排名 ,会 产生 显著 的 差 


异 。 随 着 学 术 成 果 越 来 越 多 地 在 开放 存 取 数字 网 络 平 
台 上 发 表 , 研 究 人 员 积 极 在 各 种 学 术 社 区 中 进行 形式 
多 样 的 学 术 交 流 , 如 评论 ,推荐 标注、 转发 下载 等 ,于 
是 产生 了 形式 多 样 的 基于 社会 化 网 络 的 Altmetrics X 
献 评价 指标 。T. Kortelainen 等 ”通过 对 社交 媒体 工具 
的 分 析 ,认为 推荐 .评论 .链接 分 享 等 行为 能 够 提高 科 
研 文献 对 普通 大 众 的 可 见 度 ,可 将 这 些 指 标 纳入 到 文 
献 的 效用 评估 中 。Altmetrics 评价 指标 的 兴起 说 明 人 
们 乐意 从 同行 所 在 的 虚拟 学 习 社区 中 获取 有 价值 的 文 
献 , 不 同 的 虚拟 学 习 社 区 代表 不 同 的 学 科 方 向 和 研究 
主题 ,可 以 说 Altmetrics 评价 指标 为 在 研究 主题 层面 实 
现 对 文献 影响 力 的 评估 提供 了 可 借鉴 的 思路 。 

司 内 学 者 在 引文 频次 的 基础 上 也 开展 了 相应 的 改 
XE TE, nm SEE A 指数 '"” AR 指数 '” s 
38 ^ qd W 指数 , 肖 学 斌 "提出 的 x dE UR ERE T 
提出 的 Pt 指数 等 。 另 有 页 宁 ”通过 对 文献 被 引 频次 
的 年 代 分 布 进行 分 析 , 给 出 评价 专著 、 期 刊 文章 和 学 
位 论文 3 种 文献 类 型 的 合理 时 间 , 创 造 性 地 提出 “高 位 
段 持 续 时 间 和 峰值 高 低 ” 可 以 作为 评价 文献 价值 的 参 
考 指标 ; 汪 志 伟 等 ”在 综合 考虑 多 种 因素 的 前 提 下 ， 
提出 一 种 多 维 文献 检索 排序 法 , 该 方法 以 加 权 的 方式 
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将 文献 价值 量化 ,有 效 地 改善 了 文献 检索 排序 法 的 效 
果 ; 李 长 玲 等 ”将 引用 文献 的 质量 融 于 引文 分 析 中 ， 
提出 基于 PageRank 的 引文 分 析 法 。 国 内 也 有 关于 Alt- 
metrics 文献 评价 指标 的 相关 研究 ,如 翟 晓 芳 融合 基 
于 引用 的 传统 指标 与 基于 社会 化 网 络 的 Altmetrics 指 
标 ,提出 了 适应 国内 学 术 环 境 的 综合 计量 模型 。 
分 析 发 现 , 已 有 研究 主要 以 被 引 频 次 作为 评价 文 
影响 力 的 指标 ,在 改进 的 一 些 方法 中 ,多 是 将 时 间 
素 、 社 会 网 络 方法 与 被 引 频次 结合 来 评价 文献 的 影响 
力 , 鲜 有 考虑 文献 主题 因素 的 相关 研究 。Altmetrics 指 
标 是 基于 社交 网 络 对 学 术 研 究 进行 分 析 和 传播 的 新 型 


计量 方法 ,拥有 庞大 的 在 线 用 户 基 础 ,能 够 客观 地 反映 
文献 的 社会 影响 力 ,但 相关 研究 仍 未 将 文献 研究 主题 
的 差异 纳 和 学术 文献 影响 力 评价 中 。 为 弥补 上 述 不 
足 3 洒 文 给 出 一 种 基于 特定 研究 主题 的 学 术 文献 影响 
Jpn 


2 将 研究 主题 纳入 学 术 文献 影响 力 评价 


中 的 科学 性 与 合理 性 

马 将 研究 主题 纳入 学 术 文献 影响 力 评价 中 ,能 够 在 
闫 题 分 类 基础 上 细 粒 度 地 测度 学 术 文 献 的 影响 力 , 使 
党 3B 文 献 影响 力 的 评价 结果 更 加 科学 、 合 理 。 

“就 评价 客体 (文献 本 身 ) 来 讲 ,不 同学 科 领 域 的 文 
MEMI A .研究 内 容 .研究 方法 .研究 工具 .表现 形 
式 寿 均 存 在 较 大 的 差异 ,而 且 研 究 人 员 数 量 不 同 ,受众 
范 峙 也 不 同 ,所 以 ,不 同学 科 领 域 的 文献 不 能 按 相同 的 
标准 来 衡量 其 影响 力 。“ 中 文 社会 科学 引文 索引 
( GS8CI) "就 是 在 学 科 分 类 基础 上 对 期 刊 进行 的 排序 ， 
学 术 期 刊 是 学 术 文献 的 载体 ,因此 ,对 学 术 文献 影响 力 
的 评价 不 能 脱离 学 科 分 类 独立 进行 。 宋 丽 萍 等 ”在 


要 迅速 获得 科学 文献 对 茶 特 定 领域 用 户 的 影响 力 , 需 
通过 分 析 该 领域 较 活路 用 户 在 网 络 社区 中 的 各 种 讨论 
和 交流 活动 来 评估 相关 文献 在 该 领域 的 影响 力 , 因 为 
具有 相同 研究 方向 的 人 才 会 在 一 起 讨论 .交流 共同 关 
注 的 话题 ,进而 做 出 一 定 的 评判 。 

可 见 ,学术 文 献 的 影响 力 与 学 科 领 域 .研究 主题 密 
切 相 关 , 将 学 科 主 题 纳入 文献 影响 力 评价 研究 是 科学 
的 、 合 理 的 ,也 是 必须 的 。 


本 方法 首先 提取 文献 的 主题 ,得 到 每 个 主题 对 一 
篇 文献 的 支持 度 ,之 后 将 支持 度 与 文献 的 被 引 频 次 相 
结合 ,得 到 一 篇 文献 在 特定 主题 上 的 被 引 频次 , 记 为 这 
篇 文献 的 STCF 值 。 

计算 主要 分 3 个 步 又: 

(1) 主题 建 模 。 选 取 LDA 模型 抽取 文献 集中 包含 
的 主题 ,产生 包含 了 个 主题 的 文献 - 主题 概率 矩阵 LAB 
阵 中 每 一 行 表示 了 个 主题 在 一 篇 文献 中 的 概率 分 布 ， 
每 一 列表 示 某 一 个 主题 在 篇 文献 中 的 概率 分 布 。 一 
个 主题 在 一 篇 文献 中 出 现 的 概率 大 小 称 为 该 主题 对 这 
篇 文献 的 支持 度 。 一 篇 文献 可 以 对 应 多 个 研究 主题 ， 
各 研究 主题 对 同一 篇 文献 的 支持 度 各 不 相同 ,支持 度 
越 大 ,这 篇 文献 与 该 主题 的 相关 度 越 高 。 

(2) 计算 特定 主题 上 文献 的 被 引 频 次 。J 对 任意 
一 篇 文献 P, (i2 1,2, n) ,查询 P, 当前 的 被 引 频 次 ， 
WY Co O 对 任意 一 个 主题 了 =1,2,…,7) ,确定 
T, Xf P, 的 支持 度 , 记 为 75;; 其 值 为 小 于 1 的 百分数 。 
@ 计算 在 主题 7 上 文献 P, 的 被 引 频次 STCF, 计算 
公式 为 :STCF, =N x C, x TS;。 因 为 支持 度 7S, 对 被 引 
频次 C, 做 了 缩小 的 变化 ,降低 了 STCF 值 的 敏感 度 ,为 


探讨 同行 评议 .影响 计量 学 以 及 传统 文献 计量 指标 在 
科学 评价 中 的 有 效 性 时 也 得 到 “科学 评价 中 自然 科学 、 
社会 科学 具有 和 较 大 差异 ”的 结论 。 类 似 地 ,属于 同一 学 
科 领 域 的 文献 (如 同属 情报 学 学 科 的 文献 ,一 篇 研究 数 
据 挖 掘 技术 方法 的 文献 与 一 篇 研究 情报 评价 的 文献 ) , 
也 不 能 按 统一 标准 来 评价 其 影响 力 。 只 有 同一 学 科 领 
域内 相同 研究 主题 的 文献 才 有 可 比 性 ,才能 用 统一 的 
标准 来 评价 。 

就 评价 主体 (评价 者 ) 来 讲 ,研究 方向 相同 的 人 一 
般 评价 熟悉 的 或 相关 的 研究 主题 。 同 行 评议 同行 评 
审 一 直 以 来 就 是 国内 外 对 期 刊 , 文 献 .机 构 等 进行 评价 
的 一 个 流程 ,其 中 “同行 ”是 指 具有 共同 的 追求 目标 、 
并 由 专家 组 成 的 “科学 共同 体 ”” ;J. Liu 等 ”指出 : 


提高 其 敏感 性 ,前面 加 了 一 个 敏感 系数 NN 的 取 值 范 
围 在 1 - 10 之 间 , 具 体 取 值 根据 所 有 75; 平 均值 的 倒数 
大 小 来 确定 。 

(3) 特定 主题 文献 影响 力 排名 。 在 每 个 主题 内 ， 
根据 STCF 值 的 大 小 对 文献 进行 排名 ,得 到 与 某 个 主 
题 最 相关 的 文献 。 一 篇 文献 的 STCF 值 越 高 , 它 在 该 
主题 内 的 影响 力 就 越 大 ,由 此 评价 文献 在 不 同 主题 内 
的 影响 力 。 


4 ”实证 研究 与 结果 分 析 
4.1 数据 来 源 与 处 理 
本 研究 实验 数据 来 源 于 Web of Science 核心 合集 
数据 库 ,Web of Science 数据 库 中 共有 80 余 种 图 书馆 
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ChinaXiv 合 作 期 刊 


与 信息 科学 期 刊 ,根据 期 刊 内 容 ,从 中 选取 2011 4E - 
2015 年 间 情 报 学 领域 发 文 量 最 高 的 6 种 期 刊 (Sciento- 
metrics Journal of the American Medical Informatics Associ- 
ation , Journal of the American Society for Information Sci- 
ence and Technology, Information Procescing Manage- 
ment, International Journal of Information Management , 
Journal of Informetrics) ,以 其 上 被 引 频 次 最 高 的 500 篇 
文献 为 研究 对 象 。 下 载 每 篇 文献 的 标题 与 摘要 信息 作 
为 实验 数据 集 , 并 按 被 引 频 次 对 文献 进行 编号 ,分 别 标 
记 1 -500 ,以 方便 计算 过 程 中 对 文献 的 识别 。 接 着 对 
实验 数据 集 进行 预 处 理 ,使 用 EnStemmer 工具 实现 去 
除 停 用 词 . 词 干 化 等 自然 语言 处 理 规范 化 过 程 ; 之 后 将 


数据 导入 到 Excel 中 ,对 每 篇 文献 进行 单词 去 重 ,同时 
删除 高 频 出 现 但 对 本 文 没有 研究 意义 的 词语 ,如 ”ad- 
vice”“journal”“record”“task” 等 ,最 终 获 得 实验 用 的 
文本 语料库 。 
4.2 STCF 值 计 算 

在 利用 LDA 模型 对 实验 语料库 进行 主题 建 模 时 ， 
依据 文献 “提出 的 主题 之 间 的 平均 相似 度 来 确定 主 
题 数目 。 实 验 发 现 , 当 主题 数 了 设 为 7 时 ,主题 结构 的 
平均 相似 度 最 小 ,此 时 对 应 的 模型 最 优 ,因此 ,确定 
500 篇 样本 文献 涵盖 7 个 研究 主题 。 通 过 文献 主题 提 
取 ,形成 文献 - 主题 矩阵 , 见 表 1。 由 文献 - 主题 矩阵 
确定 每 个 主题 7 对 一 篇 文献 P; 的 支持 度 TS,。 


R1 文献 -~ 主题 矩阵 ( 部 分 数据 ) 


文献 篇 名 


主题 1 的 主题 2 的 。 主题 3 的 。 主题 4 的 。 主题 5 的 aew 主题 7 的 
TSij TSij TSi; TSij TSij TSis TSij 


i9 Negative results are disappearing from most disciplines and countries 
K Sentiment in Twitter Events 
Sentiment Strength Detection for the Social Web 


N Emergency knowledge management and social media technologies: A case study of the 2010 Haitian earthquake 


£ Towards a new crown indicator: Some theoretical considerations 
LO 2010 i2b2/VA challenge on concepts, assertions, and relations in clinical text 


Taiwan's National Health Insurance Research Database: administrative health care database as study object in bibliometrics 


[em The Leiden ranking 2011/2012: Data collection, indicators, and interpretation 
e Impact factor: outdated artefact or stepping-stone to journal certification? 
m Social disparities in internet patient portal use in diabetes: evidence that the digital divide extends beyond access 


do An empirical investigation of mobile banking adoption: The effect of innovation attributes and knowledge-based trust 


> Turning the Tables on Citation Analysis One More Time: Principles for Comparing Sets of Documents 


(æ) Use of diverse electronic medical record systems to identify genetic risk for type 2 diabetes within a genome-wide association 
C study 


p] Beyond the hype: Big data concepts, methods, and analytics 

G Social media competitive analysis and text mining: A case study in the pizza industry 
G^ | Next-generation phenotyping of electronic health records 

A To be or not to be in social media: How brand loyalty is affected by social media? 


0.097744361 0.082706767 0.165413534 0.090225564 0.112781955 0.180451128 0. 067669173 
0. 058823529 0.044117647 0.110294118 0.044117647 0.279411765 0.036764706  0.088235294 
0. 043209877 0.179012346 0.043209877 0.098765432 0.314814815 0.049382716 0. 092592593 

0.04 0. 048 0. 056 0. 096 0.048 0. 152 0.344 
0. 327102804 0.046728972 0.056074766 0. 14953271 0.046728972 0.130841121 0. 056074766 
0. 057553957 0. 503597122 0. 035971223 0. 057553957 0. 035971223 0. 043165468 0. 079136691 


0. 044117647 0.066176471 0. 102941176 0. 110294118 0.125 0.279411765 0. 058823529 
0. 404411765 0. 044117647 0. 044117647 0. 088235294 0. 044117647 0.125 0. 051470588 
0. 148148148 0. 092592593 0.111111111 0. 101851852 0. 083333333 0. 12037037 0. 064814815 


0. 041666667 0. 041666667 0.075 0. 058333333 0. 108333333 0. 075 0.1 
0. 033557047 0. 040268456 0. 483221477 0. 046979866 0. 046979866 0. 060402685 0. 087248322 


0. 409836066 0. 081967213 0. 040983607 0. 057377049 0. 06557377 0. 090163934 0. 049180328 


0. 04787234 0.138297872 0.031914894 0. 319148936 0.031914894 0. 117021277 0. 042553191 


0. 046783626 0. 099415205 0. 035087719 0. 333333333 0. 099415205 0. 058479532 0. 087719298 
0. 075471698 0. 106918239 0. 037735849 0. 06918239 0. 062893082 0. 037735849 0. 433962264 

0. 06741573 0. 112359551 0. 08988764 0. 168539326 0. 08988764 0. 101123596 0. 08988764 
0. 046666667 0. 04 0.52 0. 046666667 ”0. 033333333 0. 04 0. 16 


CN 


b. 


27 的 临近 整数 为 选取 敏感 系数 的 原则 , 取 NW = 2。 
然后 ,根据 与 每 个 主题 最 相关 的 词 对 主题 赋予 标签 ,7 
个 研究 主题 分 别 为 情报 评价 .医学 信息 分 析 、 电 子 商务 
与 很 策 支 持 .开放 数据 .文献 计量 .新 媒体 研究 .社会 网 
络 分 析 等 。 

在 Web of Science 数据 库 查询 文献 P, 的 被 引 频次 
C;, 由 STCF 的 计算 公式 计算 每 篇 文献 的 STCF 值 , 据 
此 对 文献 进行 影响 力 排 名 。 为 了 说 明 STCF 值 在 文献 
影响 力 评价 中 的 优势 ,将 STCF 值 与 文献 的 总 被 引 频 
次 Altmetrics 指标 值 进行 对 比 。 刘 晓 娟 等 29 在 对 多 个 
Altmetrics 指标 进行 分 析 时 ,发 现 Mendeley 和 Twitter 对 


Hj 


相关 系数 , 见 表 3。 

由 表 3 可 以 看 出 ,在 多 数 主 题 上 ,STCF 值 与 被 引 
频次 的 相关 系数 在 0.496 -0.619 之 间 , 在 个 别 主题 上 
两 者 的 相关 系数 较 低 (在 主题 6 上 为 -0.092) ,但 总 体 
来 看 ,STCF 值 与 被 引 频 次 的 相关 度 较 高 ,说 明 STCF 
值 评价 结果 与 基于 引用 关系 的 评价 结果 具有 较 高 的 一 
致 性 ,这 是 因为 STCF 值 并 未 完全 和 否定 被 引 频 次 对 文 
献 影响 力 的 作用 ,而 是 把 被 引 频 次 看 作 是 STCF 值 计 
算 公式 中 的 一 个 因子 ,是 在 肯定 文献 学 术 价值 的 基础 
上 增加 了 社会 关注 度 因素 。STCF 值 与 Altmetrics 评价 
值 的 相关 性 较 低 ,在 多 数 主题 上 ,STCF 值 与 Altmetrics 
的 相关 系数 在 0. 125 -0.370 之 间 , 在 个 别 主 题 (如 主 
题 6) 上 ,两 者 的 相关 系数 为 -0.092。 这 说 明 利 用 不 


图 书 情报 领域 论文 的 评价 更 有 参考 价值 。 因 此 ,本 研究 
以 在 Mendeley 平台 的 注册 用 户 将 该 篇 文章 加 入 到 Myli- 
bary 的 人 数 作为 Altmetrics 指标 值 。 对 比 结果 见 表 2。 
4.3 结果 分 析 

4.3.1 STCF 值 与 被 引 频 次 、Altmetrics 值 的 相关 性 
在 7 个 主题 上 将 STCF 值 与 被 引 频 次 、Altmetrics 做 相 
关 分 析 , 共 得 到 7 组 STCF 值 与 被 引 频 次 、Altmetrics 的 
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同方 法 对 文献 进行 影响 力 评价 ,其 评价 结果 会 存在 较 
大 的 差异 ;同时 ,STCF 值 虽然 同时 考虑 了 文献 的 学 术 
价值 和 社会 关注 度 , 但 相对 而 言 ,更 偏重 反映 文献 的 学 
术 价 值 。 

4.3.2 STCF 值 的 优势 ”与 被 引 频 次 和 Altmetrics 指 
标 相 比 ,在 学 术 文 献 影 响 力 评价 中 ,STCF 值 具 有 以 下 
明显 优势 : 
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X2 高 影响 力 文献 的 STCF 值 与 被 引 频次 .Altmetrics ( 将 该 篇 文章 加 入 到 Mylibary 的 人 数 ) 的 对 比 ( 部 分 数据 ) 


主题 文献 编号 题名 STCF 被 引 频 次 Altmetrics 

1 情报 1-1 Towards a new crown indicator; Some theoretical considerations 98. 13 150 135 

评价 1-2 The Leiden ranking 2011/2012; Data collection, indicators, and interpretation 93.82 116 125 
123 Turning the Tables on Citation Analysis One More Time; Principles for Comparing Sets of Documents 76.23 93 44 
1-4 The skewness of science in 219 sub-fields and a number of aggregates 54.71 63 40 
1-5 How Fractional Counting of Citations Affects the Impact Factor; Normalization in Terms of Differences in Citation — 47. 76 56 62 


Potentials Among Fields of Science 


2 医学 2-1 2010 i2b2/VA challenge on concepts, assertions, and relations in clinical text 133. 96 133 223 
jus 2-2 Sentiment Strength Detection for the Social Web 58.72 164 372 
m 2-3 A study of machine-learning-based approaches to extract clinical entities and their assertions from discharge summa- 54. 04 52 128 

ries 
2-4 Portability of an algorithm to identify rheumatoid arthritis in electronic health records 39. 29 68 21 
2-5 Machine Jearned solutions for three stages of clinical information extraction; the state of the art at i2b2 2010 38.46 46 138 

3 电子 3-1 An empirical investigation of mobile banking adoption; The effect of innovation attributes and knowledge-based trust — 94. 71 98 391 

商务 与 3-2 To be or not to be in social media; How brand loyalty is affected by social media? 84.24 81 925 

3-3 The effects of relationship quality and switching barriers on customer loyalty 78.37 72 240 

| 3-4 Negative results are disappearing from most disciplines and countries 57.89 175 453 

CN 3-5 The impact of consumer trust on attitudinal loyalty and purchase intentions in B2C e-marketplaces: Intermediary — 56.00 56 346 

LO) trust vs. seller trust 

4-1 Beyond the hype: Big data concepts, methods, and analytics 60 90 2 200 
4-2 Validation of a common data model for active safety surveillance research 59.93 58 38 
4-3 Use of diverse electronic medical record systems to identify genetic risk for type 2 diabetes within a genome-wide — 58.72 92 33 


association study 


4-4 Mapping clinical phenotype data elements to standardized metadata repositories and controlled terminologies; the e- — 48. 86 48 140 


MERGE Network experience 


cO 
e 
co 
N 
O 
N 


"u MERGE network 
m 5-1 Sentiment Strength Detection for the Social Web 103. 26 164 372 
am 5=2 Sentiment in Twitter Events 96.68 173 357 
© 5-3 A preliminary test of Google Scholar as a source for citation data; a longitudinal study of Nobel prize winners 47.47 55 73 
c 5-4 A study of open access journals using article processing charges 41.14 48 133 
de 5-5 Negative results are disappearing from most disciplines and countries 39.47 175 453 
cs 6-1 Taiwan’ s National Health Insurance Research Database ; administrative health care database as study object in bib- — 68. 74 123 40 
体 研 究 liometrics 
6-2 Negative results are disappearing from most disciplines and countries 63.16 175 453 
6-3 Emergency knowledge management and social media technologies: A case study of the 2010 Haitian earthquake 46. 82 154 649 
6-4 A Heuristic Approach to Author Name Disambiguation in Bibliometrics Databases for Large-Scale Research Assess- — 43.12 78 48 
ments 
6-5 Towards a new crown indicator; Some theoretical considerations 39.25 150 135 
7 社会 7-1 Emergency knowledge management and social media technologies: A case study of the 2010 Haitian earthquake 105. 95 154 649 
jin 7-2 Social media competitive analysis and text mining; A case study in the pizza industry 78.11 90 725 
am 7-3 Cloud computing as an innovation; Percepetion, attitude, and adoption 54.25 62 457 
7-4 Reaching for the cloud; How SMEs can manage 44. 67 67 432 
7-5 The usage and adoption of cloud computing by small and medium businesses 39.27 66 634 


4-5 Validation of electronic. medical record -based phenotyping algorithms; results and lessons learned from the e- — 45.14 79 183 


注 : 表 中 各 个 主题 下 的 文献 按 STCF 值 由 大 到 小 排序 
(1) STCF 值 能 够 从 主题 内 容 上 反映 文献 的 学 术 要 是 从 文献 的 读者 数 以 及 读者 通过 在 线 社交 媒体 进行 
价值 。 文 献 被 引 频 次 单纯 从 被 引用 的 角度 来 评价 文献 。 交流 过 程 中 的 推荐 、 评 论 等 交互 行为 和 传统 媒介 的 社 
影响 力 ,虽然 反映 了 文献 的 学 术 影响 力 和 学 术 价 值 ， ”会 传播 深度 来 度量 , 偏 癌 社会 影响 力 和 社会 关注 度 , 虽 
但 无 法 体现 文献 的 研究 主题 和 内 容 ;Altmetrics 指标 主 。 然 社 群 的 特征 能 够 反映 其 关注 的 主题 内 容 ， 但 较 少 涉 
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表 3 7 个 主题 中 500 篇 文献 的 STCF 值 与 
被 引 频 次 的 相关 系数 


STCF 值 与 被 引 频次 STCF 值 与 Altmetrics 


主题 1 .496 ** .124** 

主题 2 . 606 ** . 207 ** 

主题 3 .564 .325 

主题 4 .609 ** Bp we 

主题 5 .516 .256 

主题 6 一 .092 -.150** 

主题 7 .616 .370 

说 明 :“ 表 示 在 置信 和 度 ( 双 测 ) 为 0.01 时 ,相关 性 是 显著 的 ;” 表 

示 在 置信 和 度 ( 双 测 ) 为 0.05 时 ,相关 性 是 显著 的 
及 与 论文 质量 相关 的 学 术 价 值 ”。 而 STCF 值 是 研究 


主题 对 文献 的 支持 度 75; 与 文献 的 被 引 频次 C, 的 融 
命 研 究 主 题 对 文献 的 支持 度 反 映 了 文献 的 主题 内 容 ， 
被 可 频次 体现 了 文献 的 学 术 价值 ,因此 ,STCF 值 从 主 
题 岗 容 上 反映 了 文献 的 学 术 价 值 。 

LDL2 )S7CF 值 能 够 在 同类 研究 主题 内 反映 文献 的 
学 习 地 位 。 学 术 文献 的 被 引 频次 和 Altmetrics 指标 值 
最 直接 的 体现 应 该 是 在 文献 对 应 研究 主题 上 研究 力量 
的 细弱 ,因为 不 同 研究 方向 的 研究 人 员 和 爱好 者 数量 
论 加 ,即使 学 术 水 平 相同 的 文献 ,其 被 引 频 次 .Altmer- 
ris 指标 值 也 会 存在 差异 ;反之 ,被 引 频次 Altmetrics 
后 售 值 都 相同 的 文献 ,其 学 术 水 平 也 不 一 定 等 同 。 而 
WI] STCF 值 可 以 发 现 那些 研究 力量 相对 薄弱 、 社 会 
味 省 力 不 是 很 高 . 却 具有 较 高 学 术 水 平 的 文献 。 比 如 
KOHA 4 类 “开放 数据 "中 文献 4-1 的 STCF 值 为 
6077) 58 1 类 “情报 评价 ”研究 主题 下 文献 1-3 对 应 
的 GYCF 值 (76.23) ;第 6 类 “新 媒体 研究 "中 文献 6 一 1 
的 STCF 值 为 68.74, 小 于 第 3 类 “电子 商务 与 决策 支 
持 " 研 究 主题 下 文献 3 -3 对 应 的 STCF 值 (78. 37)。 
上 述 STCF 值 低 的 文献 在 主题 4 .主题 6 中 的 排名 都 是 
第 一 位 ,而 STCF 值 高 的 文献 在 主题 1 .主题 3 中 的 排 
名 却 是 第 3 位 。 可 见 ,STCF 值 是 在 同类 研究 主题 内 比 
较 文献 的 影响 力 , 能 够 在 主题 内 容 上 反映 学 术 文献 的 
合理 地 位 。 

(3) STCF 值 体现 了 文献 研究 主题 的 多 元 性 和 倾 
向 性 。 一 篇 文献 往往 会 有 不 同 的 研究 主题 ,在 进行 主 
题 分 类 时 同一 篇 文献 会 被 分 到 不 同 的 主题 类 团 中 。 根 
据 表 2 的 数据 以 及 被 引 频 次 、Alimetrics 指标 的 定义 ， 
即使 先 将 文献 按 主 题 分 类 ,一 篇 文献 无 论 被 分 到 哪个 
主题 类 团 中 ,其 被 引 频 次 、Altmetrics 指标 值 都 分 别 对 
应 同一 个 值 ,如 文献 3 — 4" Negative results are disappea- 
ring from most disciplines and countries” 的 被 引 频 次 为 
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175 ,Altmetrics 指标 值 为 433。 在 所 有 主题 中 , 若 按 被 
引 频 次 排名 ,该 文献 排名 都 是 第 一 位 ; 若 按 Altmetrics 
指标 排名 ,该 文献 都 是 排 在 第 11 位 。 但 一 篇 文献 在 研 
究 主 题 上 总 有 轻 、 重 之 别 ,在 其 涉及 的 所 有 研究 主题 上 
的 评价 值 都 相同 是 不 符合 实际 的 。STCF 值 是 根据 文献 
在 不 同 研 究 主 题 上 的 支持 度 得 到 的 ,同一 篇 文献 ,对 不 
同 主题 的 支持 度 有 别 , 因 此 ,在 不 同 主题 内 其 学 术 地 位 
就 不 同 ,如 上 述 文献 在 主题 1 -7 中 的 排名 分 别 是 第 15、 
第 7 第 4、 第 11、 第 5、 第 2 第 15, 详 见 如 表 4 所 示 : 

表 4 文献 3 -4 在 不 同 主题 内 的 评价 结果 对 比 


"—— dcs SC : 
woa Ta) Como ae 
主题 1 175 (1) 453 (11) 34.22 (15) 
主题 2 175 (1) 453 (11) 28.94 (7) 
主题 3 175 (1) 453 (11) 57.89 (4) 
主题 4 175 (1) 453 (11) 31.58 (11) 
主题 5 175 (1) 453 (11) 39.47 (5) 
主题 6 175 (1) 453 (11) 63.16 (2) 
主题 7 175: (1) 453 (11) 23.68 (15) 


可 见 ,STCF 值 不 仅 体 现 了 学 术 文献 研究 主题 的 多 
元 性 ,而 且 还 能 反映 一 篇 文献 在 不 同 研究 主题 上 着 力 
大 小 的 差异 。 
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本 研究 提出 一 种 基于 研究 主题 的 学 术 文 献 影响 力 
评价 新 指标 , 即 STCF 值 , 并 以 情报 学 领域 500 篇 高 被 
引文 献 为 研究 样本 进行 了 实证 研究 ,通过 对 比 发 现 
STCF 值 具 有 其 独特 的 优势 。 

本 研究 的 主要 结论 如 下 :中 利用 LDA 模型 对 500 
篇 高 被 引文 献 进行 主题 提取 , 发现 500 篇 文献 涵盖 7 
个 研究 主题 :情报 评价 、 医 学 信息 分 析 、 电 子 商务 与 决 
策 支 持 ,开放 数据 文献 计量 、 新 媒体 研究 社会 网 络 分 
析 等 。 包 计算 每 篇 文献 在 各 主题 内 的 STCF 值 ,并 在 
不 同 研究 主题 内 对 文献 进行 影响 力 排序 。 通 过 与 被 引 
频次 、Altmetrics 评价 值 对 比 ,发 现 :STCF 值 与 被 引 频 
次 相关 度 较 高 ,与 Altmetries 的 相关 度 较 低 ,说 明 STCF 
值 虽然 同时 考虑 了 文献 的 学 术 地 位 和 社会 关注 度 , 但 
相对 而 言 ,更 偏重 反映 文献 的 学 术 价 值 。@@ 通 过 3 种 
评价 方法 的 优势 对 比 ,发 现 :基于 主题 分 类 的 STCF 值 
评价 方法 能 够 同时 从 主题 内 容 和 社会 关注 度 上 反映 文 
献 的 学 术 价 值 和 学 术 地 位 ,符合 同行 评议 的 评判 规则 ; 
STCF 值 同时 反映 了 文献 研究 主题 的 多 元 化 属性 。 可 
以 说 ,本 研究 提出 的 STCF 值 是 对 传统 文献 被 引 频 次 
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评价 方法 的 改进 和 完善 ,为 挖掘 不 同 研究 主题 内 具有 
高 影响 力 和 引用 价值 的 文献 提供 了 新 的 视角 和 途径 。 
STCF 值 的 不 足 之 处 在 于 :有 些 文献 (如 综述 性 的 

文献 ) 涉 及 的 主题 较 多 ,如 果 在 每 个 研究 主题 上 支持 度 

都 不 高 ,那么 在 各 个 主题 上 的 STCF 值 就 会 相对 偏 低 ， 

这 种 文献 的 影响 力 可 能 会 被 低估 。 另 外 ,文献 的 被 引 

次 数 会 不 断 变化 ,而 且 不 同学 科 和 领域 文献 的 半衰期 也 

不 同 ,时 间 变 量 是 评价 学 科 主 题 内 文献 影响 力 的 一 个 

重要 因素 ,本 研究 对 时 间 变 量 的 忽视 也 会 导致 评价 结 

果 的 偏颇 。 

在 未 来 研究 中 ,将 考虑 对 所 有 主题 进行 主 成 分 提 

取 , 并 将 成 分 因子 的 方差 贡献 率 占 累计 贡献 率 的 比重 

对 各 主 成 分 因子 赋 权 ,再 累计 各 主 成 分 加 权 后 对 文献 

MISERE ,在 此 基础 上 与 文献 被 引 频次 融合 ,同时 ,将 

时 间 变 量 引入 主题 影响 力 评价 体系 中 ,以 更 加 客观 、 公 

开 剂 评价 学 术 文献 的 影响 力 。 
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STCF Value: A New Index to Evaluate the Academic Literature Influence 
Based on Research Topic 
Li Xiuxia Song Kai 
School of Communication, Qufu Normal University, Rizhao 276826 
Abstract. [ Purpose/significance] The indexes of evaluating literature influence continue to innovate, but a lot of 
indexes are lack of assessment of the literature influence on the topic level. Aimed to solve this problem, this paper pres- 
ents a method based on the research topic. [ Method/process] This paper chooses 500 highly cited literature as samples 
which attribute to the field of information science in the Web of Science database. LDA model is used to model the litera- 
ture subject. The support of the topic of the literature is combined with the cited frequency to compute the specific topic 
cited frequency ( STCF). We rank the literature according to the STCF value of each document in the corresponding sub- 
ject. [ Result/conclusion | The empirical research shows that STCF value reflects the subject content, the subject diversi- 
ty, and the academic status of literature. This method effectively compensates for the shortage of the cited frequency and 


Alimetrics index to evaluate the literature impact. 


Keywords; citation frequency literature influence LDA model STCF value 
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关于 在 学 术 论文 署名 中 常见 问题 或 错误 的 诚信 提醒 


了 科技 工作 的 基本 准则 ,是 履行 党 和 人 民 所 赋予 的 科技 创新 使 命 的 基本 要 求 。 中 国 科 学 院 科研 道德 委员 


-~~ 


Š 
Ex 
b 
E 
Jilg 


AR 


H ans 不 端 行为 举报 中 发 现 的 突出 问题 ,总 结 当前 学 术 论文 署名 中 的 常见 问题 和 错误 ,予以 提醒 ,倡导 在 科研 实 
Cu " 守信 行为 ,努力 营造 良好 的 科研 生态 。 
1 S ”提醒 一 :论文 署名 不 完整 或 者 夹带 署名 。 应 遵循 学 术 惯例 和 期 刊 要 求 ， 与 科研 实践 过 十 程 并 做 出 实质 性 贡献 的 学 者 进 
入 行署 名 ,反对 进行 荣 荃 儿 . 债 鄙 性 和 利益 交换 性 署名 。 提醒 二 ,论文 署名 排序 不 当 。 按 照 学 术 发 表 惯例 或 期 刊 要 求 ,体现 作者 
PS 寺 论 文 贡献 程度 ,由 论文 作者 共同 确定 署名 顺序 。 ia 0 oue 这 。 部 分 学 科 领 域 不 采取 以 
ic urn 非 序 的 ,从 其 规定 。 

者 或 通讯 作者 数量 过 多 。 应 依据 作者 的 实质 性 贡献 进行 署名 ,避免 第 一 作者 或 通讯 作者 数量 过 多 ,在 同行 中 


ch 


提醒 四 : 冒 用 作者 署名 。 在 学 者 不 知情 的 情况 下 , 冒 用 其 姓名 作为 署名 作者 。 论 文 发 表 前 应 让 每 一 位 作者 知情 同意 ,每 一 位 
作者 应 对 论文 发 表 具 有 知情 权 ,并 认可 论文 的 基本 学 术 观点 。 

提醒 五 :未 利用 标注 等 手段 ,声明 应 该 公开 的 相关 利益 冲突 问题 。 应 根据 国际 惯例 和 相关 标准 ,提供 利益 冲突 的 公开 声明 。 
如 资金 资助 来 源 和 研究 内 容 是 否 存在 利益 关联 等 。 

提醒 六 :未 充分 使 用 志 ( 致 ) 谢 方式 表现 其 他 参与 科研 工作 人 员 的 贡献 ,造成 知识 产权 纠纷 和 科研 道德 纠纷 。 

提醒 七 :未 正确 署名 所 属 机 构 。 作 者 机 构 的 署名 应 为 论文 工作 主要 完成 机 构 的 名 称 ,反对 因 作者 所 属 机 构 变 化 ,而 不 恰当 地 
使 用 变更 后 的 机 构 名 称 。 

提醒 八 : 作 者 不 使 用 其 所 属 单位 的 联系 方式 作为 自己 的 联系 方式 。 不 建议 使 用 公众 邮箱 等 社会 通讯 方式 作为 作者 的 联系 方 
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提醒 九 :未 引用 重要 文献 。 作 者 应 全 面 系统 了 解 本 科研 工作 的 前 人 工作 基础 和 直接 相关 的 重要 文献 ,并 确信 对 本 领域 代表 1 
文献 没有 遗漏 。 
提醒 十 :在 论文 发 表 后 ,如 果 发 现 文章 的 缺陷 或 相关 研究 过 程 中 有 违背 科研 规范 的 行为 ,作者 应 主动 声明 更 正 或 要 求 撤回 稿 
件 。 
院 属 各 单位 应 根据 以 上 提醒 ,结合 本 单位 学 科 特 点 和 学 术 惯 例 ,对 科研 人 员 进 行 必要 的 教育 培训 ,让 每 一 位 科研 工作 者 对 学 
术 论 文 署 名 保持 高 度 的 责任 心 ,珍惜 学 术 汪 誉 .抵制 学 术 不 端 行为 ,将 科研 诚信 贯穿 于 学 术 生涯 始终 。 
来 源 :中 国 科 学 院 监督 与 审计 局 
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